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Die voriiegende Erfindung betrifft ein Sprach-Endpunkt-Erfassungsverfahren und insbesondere ein 
Verfahren zum Erfassen einer Sprachperiode in einem Sprache enthaitenden Signal bei starken 
UmgebungsgerSuschen. 

Spracherkennungstechnologie ist heutzutage wcit verbreitet. Um Sprache zu erkennen, ist es 
notwendig, eine zu erkennende Sprechperiode im Eingangssignal zu erfassen. Es wird eine 
Beschreibung einer herkommlichen Technik zum Erfassen der Sprechperiode auf Grundlage der 
Amplitude, d.h. der Leistung, der Sprache gegeben. Die hier.erwahnte Leistung ist die Quadrat- 
summe des Eingangssignals pro Zeiteinheit. Sprache enthalt Qblicherweise eine Tonhohenfre- 
quenzkomponente, deren Leistung in einer Vokalperiode besonders hoch ist. Unter der Annahme, 
daB ein Rahmen im Eingangssignal, in dem die Leistung des Eingangssignals einen bestimmten 
Schwellwert uberschreitet, ein Rahmen eines Vokals ist, erfaSt das herkommliche Schema als 
Sprachperiode den Vokalrahmen zusammen mit mehreren vorhergehenden und nachfolgenden 
Rahmen. Bei diesem Verfahren ergibt sich jedoch ein Problem, daB Signale mit hoher Leistung, 
die ungefahr genau so lang wie ein Wort andauem, alle irrtumlich als Sprache erfaSt werden. Das 
heiBt, Gerausche hoher Leistung wie etwa das Gerausch einer Telefonklingel und einer zuschla- 
genden Tur werden als Sprache erfaSt. Ein anderes Problem dieses Verfahrens ist, daS es um so 
schwieriger wird, die Leistungsperiode der Sprache zu erfassen, je starker die Leistung des 
Hintergrundgerausches zunimmt. Zum Beispiel bei der Sprachsteuerung eines Instrumentes in 
einem Fahrzeug besteht die Moglichkeit, daB das Instrument aufgrund eines Erkennungsfehlers 
unkontrollierbar wird oder versagt. 

Ein anderes herkommliches Verfahren ist, die Sprachperiode auf der Basis einer Tonhohenfre- 
quenz zu erfassen, die die Grundfrequenz der Sprache ist. Dieses Verfahren nutzt die Tatsache, 
daB die Tonhohenfrequenz eines stationaren Teiles eines Vokals in den Bereich von etwa 50 bis 
500 Hz fallt. Die Tonhohenfrequenz des Eingangssignals wird untersucht, und danh wird der 
Rahmen, in dem die Tonhohenfrequenz in dem oben erwahnten Frequenzbereich bleibt, als 
Rahmen eines Vokals angenommen, und der Rahmen sowie mehrere vorangehende und nachfol- 
gende Rahmen werden als eine Sprachperiode erfaSt. Bei diesem Verfahren wird jedoch ein 
Signal mit Tonhohenfrequenz in dem Frequenzbereich irrtumlich als Sprache erfaSt, auch wenn es 
ein Gerausch ist. In einer Umgebung, wo Musik mit einer im allgemeinen starken Tonkomponente 
einen Hintergrund bildet, ist es sehr wahrscheinlich, daB die Sprachperiode aufgrund der 
Tonkomponente des Musikgerausches fehlerhaft erfaSt wird. Da auBerdem das Tonhohenfre- 
quenz-Erfassungsverfahren die Tatsache ausnutzt, daB die Schwingungsform menschlicher 
Sprache bei jeder Tonhohe eine hohe Korrelation annimmt, macht es die Oberiagerung von 
Gerauschen uber Sprache unmoglich, einen hohen Korrelationswert zu erreichen und damit die 
korrekte. Tonhohenfrequenz zu erfassen, was zu einem Versagen der Spracherfassung fuhrt. 



In der japanischen Patentoffenlegungsschrift Nr. 200300/85 wird ein Verfahren vorgeschlagen, 
das darauf abzielt, die Genauigkeit des Erfassens von Start- und Endpunkten der Sprachperiode 
zu verbessern. Dieses Verfahren definiert a Is Start- und Endpunkte der Sprachperiode d'tejenigen 
Zeitpunkte, an denen das Signalspektrum starke Veranderungen erfahrt, in der Umgebung der 
Start- und Endpunkte einer Periode, in der die Leistung des Eingangs-Sprachsignals einen 
Schwellwert ubersteigt. Da dieses Verfahren auf der Erfassung des Leistungspegels des Ein- 
gangssignals beruht, das den Schwellwert uberschreitet, gibt es eine sehr starke Moglichkeit 
eines Erfassungsfehlers, der auftritt, wenn der Sprachsignaipegel niedrig oder der Gerauschpegel 
hoch ist. 

Bei dem oben beschriebenen herkommlichen Verfahren zum Erfassen der Sprachperiode basierend 
auf der Leistung der Sprache kann bei hoher Leistung des Hintergrundgerausches dieses nicht 
von der Leistung der Sprache unterschieden werden, und das Gerausch wird irrtumiich als 
Sprache erfaBt. Andererseits gibt es bei dem Sprachperioden-Erfassungsverfahren, das auf der 
Tonhohenfrequenz basiert, wenn Gerausch der Sprache uberiagert wird, einen Fall, wo eine 
stabile Tonhohenfrequenz nicht erhaiten und deshalb Sprache nicht erfa&t werden kann. 
AuBerdem ist in dem US-Patent Nr. 5 365 592 ein Verfahren offenbart, in dem eine Cepstrum- 
Tonhohe durch eine FFT-Analyse des Eingangssignals erhaiten und basierend auf der Cepstrum- 
Tonhdhe an jedem Zeitpunkt bestimmt wird, ob das Eingangssignal Sprache ist oder nicht. Auch 
dieses Verfahren ist anfallig gegen Entscheidungsfehler aufgrund von Gerauschen. 

AuBerdem offenbart das Dokument a Instantaneous Spectral Estimation of Nonstationary Signals" 
von Takizawa et a!., ICASSP-94, Band IV, Seiten 329 bis 332, die Verwendung einer spektralen 
Frequenzanderung eines Signals fur die momentane Spektralabschatzung. 

Aufgabe der vorliegenden Erfmdung ist daher, ein Signalverarbeitungsverfahren anzugeben, das 
stabile Erfassung der Sprachperiode aus dem Eingangssignal auch in einer Umgebung mit starkem 
Gerausch durch Ausnutzung der Informationscharakteristik von Sprache ermoglicht. 

GemaB der vorliegenden Erfindung umfaBt das Signalverarbeitungsverfahren zum Erfassen der 
Sprachperiode im Eingangssignal folgende Schritte: 

(a) Erhaiten eines spektralen Merkmalparameters durch Analysieren des Spektrums des 
Eingangssignals fur jedes vorgegebene Analysef enster; 

(b) Berechnen des Ausma&es der Anderung des spektralen Merkmalparameters des 
Eingangssignals pro Zeiteinheit; 

(c) Berechnen der Anderungsf requenz des AusmaBes des spektralen Merkmalparameters 
uber eine vorgegebene Analyserahmenperiode, die Sanger als die Zeiteinheit ist; und 

(d) Uberprufen, ob die Anderungsfrequenz in einen vorgegebenen Frequenzbereich fallt, 
und wenn ja, Entscheiden, daB das Eingangssignal des Analyserahmens ein Sprachsignal ist. 

Bei dem obigen Signalverarbeitungsverfahren umfaBt der Schritt des Berechnens des AusmaSes 
der Anderung des spektralen Merkmalparameters einen Schritt des Erhaltens einer Zertfolge von 
Merkmalvektoren, die die Spektren des Eingangssignals an jeweiligen Zeitpunkten darstellen, und 
einen Schritt des Berechnens der dynamischen Messwerte durch die Verwendung der Merkmal- 



vektoren an einer Mehrzahl von Zeitpunkten und des Berechnens der Anderung im Spektrum aus 
der Norm der dynamischen Messwerte. 

Bei dem obigen Signalverarbeitungsverfahren ist der Frequenzberechnungsschritt ein Schritt des 
Zahlens der Anzahl von Peaks der spektralen Veranderung, die einen vorgegebenen Schwellwert 
uberschreiten und des Lieferns des resultierenden Zahlergebnisses als Frequenz. 

Alternativ umfafct der Frequenzberechnungsschritt einen Schritt des Berechnens der Gesamt- 
summe von Anderungen im Spektaim des Eingangssignais uber die Analyserahmenperiode r die 
langer als die Zeiteinheit ist, und der Entscheidungsschritt entscheidet, daS das Eingangssignal 
der Anaiyserahmenperiode ein Sprachsignal ist f wenn der Wert der Gesamtsumme innerhalb eines 
vorgegebenen Wertebereiches liegt. 

Das obige Signalverarbeitungsverfahren umfafct femer einen Schritt des vektorieWen Quantisierens 
des Eingangssignais fur jedes Analysefenster durch Bezugnahme auf ein Vektorcodebuch, das 
aus reprasentativen Vektoren fur spektrale Merkmalparameter von Sprache aufgebaut ist, die aus 
Sprachdaten gewonnnen sind, und des Berechnens einer Quantisierungsverzerrung. Wenn die 
Quantisierungsverzerrung kleiner als ein vorgegebener Wert ist und die Frequenz der Anderung 
innerhalb des vorgegebenen Frequenzbereiches liegt, wird im Entscheidungsschritt (d) entschie- 
den, daS das Eingangssignal im Analysefenster die Sprachperiode darstellt. 

Das obige Signalverarbeitungsverfahren umfa&t femer einen Schritt des Erhaltens der Tonhohen- 
frequenz, des Amplrtudenwertes oder des Konrelationswertes des Eingangssignais fur jedes 
Analysefenster und des Entscheidens, ob das Eingangssignal ein Vokal ist. Wenn der Vokal erfafct 
wird und die Frequenz der Anderung im vorgegebenen Frequenzbereich ist, wird im Entschei- 
dungsschritt (d) entschieden, da& das Eingangssignal im Analysefenster ein Sprachsignal ist. 
Alternativ wird im Entscheidungsschritt (d) die Zahl von Nulldurchgangen des Eingangssignais 
gezahlt, und basierend auf dem Zahlwert wird entschieden, ob das Eingangssignal ein Konsonant 
ist, und wird die Sprachperiode auf der Grundlage des Entscheidungsergebnisses und der 
Anderungsfrequenz entschieden. 

Da gemafc der vorliegenden Erfindung die Aufmerksamkeit auf die Frequenz einer spektralen 

mm 

Anderungscharakteristik eines Sprachtones konzentrlert ist, kann sogar ein Gerausch von hoher 
Leistung von Sprache unterschieden werden, wenn es keine spektrale Veranderung mit der 
gleichen Frequenz wie die Sprache erfahrt. Folglich ist es moglich, festzustellen, ob unbekannte 
Eingabesignale von hoher Leistung wie etwa ein stetiges Gerausch und ein sanfter Klang von 
Musik, Sprache sind. Auch wenn dem Sprachsignal Gerausch uberlagert ist, kann Sprache mit 
hoher Genauigkeit erfaSt werden, weil die spektrale Anderung des Eingangssignais genau und 
stabil erfafit werden kann. AuBerdem konnen eine leise singende Stimme und andere Signale mit 
relativ niedriger Frequenz der spektralen Anderung beseitigt oder unterdruckt werden. 

Das obige Verfahren basiert lediglich auf der Frequenz der spektralen Anderung des Eingangs- 
signais, die Sprachperiode kann aber mit hoherer Genauigkeit erfa&t werden durch Kombinieren 
der Frequenz der spektralen Veranderung mit ein oder mehr Informationsstucken uber den 



spektralen Merkmalparameter, die Tonhohenfrequenz, den Amplitudenwert und dfe Zah! der 
Nuildurchgange des Eingangssignals, die dessen spektrale Umhullende zu jedem Zeitpunkt 
darstellen. 

Fig. 1 ist ein Graph, der die Frequenz der spektralen Anderung eines Sprachsignals zeigt, auf 
der die voriiegende Erfindung basiert; 

Rg. 2 ist ein Diagramm zur Eriauterung einer Ausgestaltung der vorliegenden Erfindung; 

■ 

Fig. 3 ist ein Zeitdiagramm einer Spektralanalyse eines Signals; 

Rg. 4 ist ein Diagramm, das Sprachsignal-Wellenformen und die zugehorigen Veranderungen 
des dynamischen MeSwertes in der Ausgestaltung der Rg, 2 zeigt. 

Rg. 5 ist ein Diagramm, das die Ergebnisse der Spracherfassung im Dokument nach Fig. 2 
zeigt; 

Rg. 6 ist ein Diagramm zum Erlautern einer anderen Ausgestaltung der vorliegenden 
Erfindung, die die Frequenz der spektralen Anderung mit einem Vektorquantisierungs- 
schema kombiniert. 

Rg. 7 ist ein Diagramm, das die Wirksamkeit der Ausgestaltung von Rg. 6 zeigt; 

Rg. 8 ist ein Diagramm, das eine andere Ausgestaltung der vorliegenden Erfindung zeigt, bei 
der die Frequenz der spektralen Anderung mit der Tonhohenfrequenz des Eingangs- 
signals verknupft sind; und 

Rg. 9 ist ein Diagramm, das noch eine weitere Ausgestaltung der vorliegenden Erfindung 
zeigt, bei der die Frequenz der spektralen Anderung mit der Zahl von Nulldurchgangen 
des Eingangssignals verknupft ist. 

GemaR der vorliegenden Erfindung wird eine spektrale Veranderung des Eingangssignals von 
einer Zettfolge ihrer spektralen Merkmalparameter abgeleitet, und die zu erfassende Sprach- 
periode ist eine Periode, uber der das Spektrum des Eingabesignals sich mit ungefahr der gleichen 
Frequenz wie die Sprachperiode andert. 

■ * 

Die Erf assung einer Anderung im Spektrum des Eingangssignals beginnt mit dem Berechnen des 
Merkmalvektors des Spektrums zu jedem Zeitpunkt, gefotgt von einer Berechnung des dynami- 
schen Merkmals aus dem Spektrum anhand von Merkmalvektoren an einer Mehrzahl von Punkten 
in der Zeit und dann durch Berechnen des Ausma&es der Anderung im Spektrum aus der Norm 
des dynamischen Merkmalsvektors. Die Frequenz oder das zeitliche Muster der spektralen 
Veranderung im Sprachzeitraum ist vorberechnet, und eine Periode,. in der das Eingangssignal 
eine spektrale Veranderung ahnlich der oben erwahnten erfahrt, wird als Sprachperiode erfaBt. 
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Als spektraler Merkmalparatneter kann Information uber die spektrale Umhullende benutzt 
werden, die durch eine FFT-Spektralanalyse, Cepstrum-Analyse, Kurzzeit-Autokorrelationsanalyse 
oder ahnliche Spektralanalyse erhaltlich ist. Der spektrale Merkmalparameter ist ublicherweise 
eine Folge von mehreren Werten (entsprechend einer Folge von spektralen Frequenzen), die im 
folgenden als Merkmalsvektor bezeichnet wird. Das dynamische Merkmaf kann die Differenz 
zwischen Zeitfolgen von spektralen Merkmalparametern, ein Polynom-Expansionskoeffizient oder 
beliebige andere spektrale Merkmalparameter sein, so lange sie die spektrale Veranderung 
darstellen. Die Frequenz der spektralen Veranderung wird durch ein Verfahren erfafit, das in der 
Lage ist, den Grad der spektralen Anderung durch Zahlen der Zahl von Peaks in der spektralen 
Veranderung uber eine bestimmte Rahmenzeit oder durch Berechnen des Integrals des Ausma&es 
der Anderung im Spektrum zu berechnen. 

Naturlich ist ein Sprachgerausch insbesondere eine Folge von Phonemen, und jedes Phonem hat 
«ine charakteristische spektrale Umhullende. Folglich andert sich das Spektrum stark an der 
Grenze zwisphen Phonemen. AuBerdem ist die Zahl von Phonemen, die pro Zeiteinheit erzeugt 
werden (die Frequenz der Erzeugung der Phoneme) in einer solchen Folge von Phonemen nicht 
nach Sprachen unterschiedlich, sondem ist allgemeinen Sprachen gemeinsam. Bezogen auf die 
spektrale Veranderung kann das Sprachsignal charakterisiert werden als ein Signal, dessen 
Spektrum mit einer Periode nahezu gleich der Phonemlange variiert. Diese Eigenschaft tritt in 
anderen Gerauschen in der naturiichen Welt nicht auf. Durch Vorausberechnen eines akzeptablen 
Bereichs der spektralen Veranderung in der Sprachperiode ist es moglich, als Sprachperiode eine 
Periode zu erfassen, in dem die Frequenz des Auftretens der spektralen Veranderung des 
Eingangssignals im vorberechneten Bereich liegt. 

Als Verfahren zum Analysieren des Spektrums des Eingangssignals sind z.B. ein Verfahren zum 
direkten Frequenzanalysieren des Eingangssignals, ein FFT-(Fast Fourier-Transform)- Verfahren 
zum Analysieren des Eingangssignals und ein LPC-(Linear Predictive Coding)-Verfahren zum 
Analysieren des Eingangssignals bekannt. Es folgen Gleichungen zum Ableiten des spektralen 
Parameters nach drei reprasentativen Sprachspektralanalyseverfahren. 

(a) Spektralparameter q>(m) durch Kurzzeit-Autokorrelationsanalyse: 

|N-1-|m| 

*( m >=M Z x(n)x(n+|m| n> 



(b) Spektralparameter S{©) durch Kurzzeit-Spektralanalyse: 



S(©) = 1 



2tiN 



N-1 

^ x(n)exp(-jon) 

n=0 



(2) 



(c) Spektralparameter Cn durch Cepstrum-Analyse: 



Cn = -^ log|X(k)|exp{j27tkn/N} 

N k=0 



(3) 



Der Spektralparameter durch LPC-Cepstrum-Analyse wird in der gteichen Form wie Gleichung (3) 
ausgedruckt. AuSerdem stellen ein linearer Vorhersagekoeffizient {aji-1, p}, ein PARCOR- 
Koeffizient {Kj|i=1, p} und ein Linienspektrumpaar LSP ebenfalis Spektralhulleninforrnation 
von Sprachsignalen dar. Diese spektralen Parameter werden aHe ausgedruckt durch eine 
Koeffizientenfolge (Vektor) und werden als akustische Merkmalvektoren bezeichnet. Eine 
Beschreibung wird typischerweise fur das LPC-Cepstrum C » {c v c 2 , .... c K } angegeben, doch 
konnen auch andere spektrale Parameter verwendet werden. 

Wie oben angegeben, ist das Prinzip der vorliegenden Erfindung, die Entscheidung, ob die Periode 
des Eingangssignals eine Sprachperiode ist, abhangig davon zu treffen, ob die Frequenz einer 
spektraien Anderung des Eingangssignals innerhalb eines vorgegebenen Bereiches liegt. Das 
AusmaB der Anderung im Spektrum wird als dynamischer Messwert der Sprache wie unten 
beschrieben erhalten. Der erste Schritt ist, eine Zeitfolge von akustsschen Parametervektoren des 
Sprachsignals durch FFT-Analyse, LPC-Analyse oder irgendeine andere Spektralanalyse zu 
erhalten. Nehmen wir an, daS ein k-dimensionales LPC-Cepstrum C(t) = {c„ c 2 , c k } als 
Merkmalsvektor zum Zeitpunkt t verwendet wird. Urn eine Anderung im Frequenzspektrum der 
Sprache uber eine Fensterbreite 2n (wobei n die Zahl von diskreten Zeitpunkten ist) einer 
bestimmten Periode darzusteUen, wird eine lokale Bewegung des Cepstrums C(t) durch ein 
gewichtetes Verfahren der kleinsten Fehlerquadrate linear approximiert, und ihre Neigung A(t) (ein 
linearer Differential koeffizient) wird als AusmaS der Anderung im Spektrum (ein Gradientenvek- 
tor) erhalten. Das heiSt, wenn die Gewichtung w, = w^ gesetzt wird, ist die Neigung durch lineare 
Approximation gegeben durch die folgende Gleichung: 

a k (t) = E iw,c k (t + i) i 2 w, ( 4, 

Dabei stellt a k (t) ein k-tes Element eines k-dimensionalen Vektors A(t) « {a^t), a 2 {t), a k (t)} 
dar, der das dynamische Merkmal des Spektrums zur Zeit t darstellt, und A(t) wird als ein Delta- 
Cepstrum bezeichnet. Das heifct, a k (t) bezeichnet einen linearen Differentialkoeffizienten einer 
Zeitfolge von k-dimensionalen Ceptstrumelementen c k (t) zur Zeit t (siehe Furui, "Digital Speech 
Processing", Tokai University Press). 

• — • 

Der dynamische Messwert D(t) zur Zeit t wird berechnet durch die folgende Gleichung, die die 
Summe der Quadrate aller Elemente des Delta-Cepstrums zur Zeit t darstellt (siehe Shigeki 
Sagayama and Fumitada Itakura, „On Individuality in a Dynamic Measure of Speech," Proc. 
Accoustical Society, Fruhjahrskonferenz 1997, 3-3-7, Setten 589 bis 590, Juni 1997). 



D(t) = £ a k 2 (t) 

k=1 



(5) 



Das heifct, das Cepstrum C(k) stellt das Merkmal der spektralen Huile dar, und das Delata-C- 
Cepstrum, welches sein iinearer Differentialkoeffizient ist, stellt das dynamische Merkmal dar. 
Der dynamische Messwert stellt also die GroSe der spektralen Veranderung dar. Die Frequenz SF 
der spektralen Anderung wird berechnet als die Anzahl von Peaks der dynamischen Messwerte 
D(t>, die im Laufe einer bestimmten Rahmenperiode F (eihes Analyserahmens) einen vorgegebe- 
nen Schwellwert D^ uberschreiten oder als Gesamtsumme (Integral) der dynamischen Messungen 
D(t) im Analyserahmen F. 

Zwar ist oben der dynamische Messwert D(t) des Spektrums im Falle der Verwendung des 
Cepstrums C(t) als der spektrale Merkmals-(Vektor)-Parameter beschrieben worden r doch kann 
die dynamische Messung D(t) in ahnlicher Weise als andere spektrale Merkmalparameter def iniert 
werden, die durch Vektoren dargestellt werden. 

Sprache enthalt z.B. zwei bis drei Phoneme in 400 Millisekunden, und das Spektrum variiert 
entsprechend der Zahl der Phoneme. Fig. 1 ist ein Graph, der die fur viele Rahmen gemessene 
Zahl von Peaks zeigt, die starke Spektrumanderungen pro Zeitetnheit (400 ms, die als Analyse- 
rahmenlange F definiert sind) anzeigen. 8 Stuck Sprachdaten durch Lesen wurden verwendet. In 
Fig. 1 stellt die Abszisse die Zahl von Malen dar, wo die spektrale Veranderung einen Wert von 
0,5 pro Rahmen uberschritten hat, und die Ordinate stellt die Haufigkeit dar, mit der die jeweilige 
Zahl von Peaks gezahlt wurde. Wie aus Fig. 1 offensichtlich ist, verteilt sich die Zahl von Peaks 
pro Rahmen zwischen 1 und 5. Diese Verteilung andert sich zwar mit dem zum Bestimmen der 
Peaks verwendeten Schwellwert oder den verwendeten Sprachdaten, ist aber fur Sprachgerau- 
sche charakteristisch. Wenn das Spektrum des Eingangssignals in einer 400 ms-Periode ein- bis 
funfmal variiert, kann somit entschieden werden, da& eine Sprachsignalperiode vorliegt. Die 
Anderung im Spektrum (Merkmalsvektor) stellt die Neigung der Zeitfolge C(t) der Merkmalvekto- 
ren an jedem Zeitpunkt dar. 

Fig. 2 zeigt eine Ausgestaltung der vorliegenden Erfindung. Ein uber einen SignaleingabeanschluB 
11 eingegebenes Signal S wird in einem A/D-Wandlerteil 12 in ein digitales Signal gewandelt. Ein 
Extra ktionsteil fur akustisches Merkmal 13 berechnet das akustische Merkmal des gewandelten 
digitalen Signals wie etwa dessen LPC- oder FFT-Cepstren. Ein Berechnungstei! fur einen 
dynamischen Messwert 14 berechnet das Ausmafi der Anderung im Spektrum aus der LPC- 
Cepstrenfolge. Das heiBt, das LPC-Cepstrum wird alle 10 ms erhalten, indem die LPC-Analyse 
des Eingangssignals fur jedes Analysefenster von z.B. 20 ms Breite durchgefuhrt wird, wie in 
Zeile A in Fig. 3 gezeigt, wodurch eine Folge von LPC-Cepstren C(0), C(1), C(2), erhalten 
wird, wie in Zeile B in Fig. 3 gezeigt. Jedesmal wenn das LPC-Cepstrum C(t) erhalten wird, wird 
das Delta-Cepstrum A(t) nach Gleichung (4) aus den 2n + 1 letzten LPC-Cepstren berechnet, wie 
in Zeile C in Fig. 3 gezeigt. Fig. 3 zeigt den Fall, wo n gleich 1 ist. Als nachstes wird jedesmal, 
wenn das Delta-Cepstrum A(t) erhalten wird, das dynamische Mali D(t) nach Gleichung (5) 
berechnet, wie in Zeile D in Fig. 3 gezeigt. 



Indem die oben beschriebene Verarbeitung uber den Analyserahmen F von 400 ms Zeitlange 
durchgefuhrt wird, von dem angenommen wird, daS er eine Mehrzahl von Phonemen umfaGt, 
werden 40 dynamische Messungen D(t) erhalten. Ein Sprachperioden-Erfassungsteil 15 zahlt die 
Zahl von Peaks der dynamischen Messwerte D(t), die den Schwellwert D m uberschreiten und 
liefert den Zahlwert als Frequenz S F der Spektrumsanderung. 

Alternativ wird die Gesamtsumme der dynamischen Messwerte D(t) uber den Analyserahmen F 
berechnet und als Frequenz S F der Spektrumanderung definiert. 

Die Frequenz der Spektrumanderung in der Sprachperiode wird vorausberechnet, auf deren 
Grundlage der obere und untere Schwellwert vorgegeben werden. Der Rahmen des Eingangs- 
signais, der in den Bereich zwischen dem unteren und dem oberen Schwellwert fallt, wird als ein 
Sprachrahmen erfaBt. Schlie&lich wird das Sprachperioden-Erfassungsergebnis aus einem 
Sprachpertoden-Erfassungsausgabeteil ausgegeben. Indem die Frequenz S F der Spektrumsande- 
rung wahrend der Anwendung des Eingangssignais wiederholt durchgefuhrt und dabei die 
zeitliche Position des Analyserahmens F jedesmai um ein Zeitintervall von 20 ms verschoben 
wird, wird die Sprachperiode im Eingangssignaf erfa&t. 

Fig. 4 ist ein Diagramm, das eine Sprachsignal-Wellenform und ein Beispiel eines Musters der 
entsprechenden Anderung der dynamischen Messung D(t) zeigt. Die in Zeile A gezeigten 
Sprachwellenformdaten sind die Aussprache, durch einen mannlichen Sprecher, der japanischen 
Worter /keikai/ und /sasuga/, mit der Bedeutung "Achtung" bzw. "wie zu erwarten". Die LPC- 
Cepstrumanalyse zum Erhalten des dynamischen Messwerts D(t) des Eingangssignais wurde 
durchgefuhrt mit einem 20 ms langen Analysefenster, das um ein 10 ms-Zeitintervall verschoben 
wurde. Das Delta-Cepstrum A(t) wurde uber einer Rahmenbre'rte von 100 ms berechnet. Aus Fig. 
4 ist zu sehen r daS der dynamische Messwert D{t) in einem stillen Bereich oder stationaren 
Bereich der Sprache nicht stark variiert, wie in Zeile B gezeigt, und daS Peaks der dynamischen 
. Messungen an Anfangs- und Endpunkten der Sprache oder an der Grenze zwischen Phonemen 
auftreten. 

Fig. 5 ist ein Diagramm zur Ertauterung eines Beispiels des Ergebnisses der Erfassung von 
Sprache mit uberlagertem Gerausch. Die in Zeile A gezeigte Eingangssignal-Wellenform wurde 
wie folgt erzeugt: das Gerausch eines fahrenden Autos wurde mit einem Signal-Rausch-Verhalt- 
nis von 0 dB einem Signal uberlagert, das durch Verkettung der Aussprache des japanischen 
Wortes /aikawarazu/ mit der Bedeutung "wie ubltch" durch zwei Sprecher erhalten wurde, wobei 
die Aussprachen jeweils durch eine stille Periode von 5 s getrennt waren. Zeile B in Fig. 5 zeigt 
eine korrekte Sprachperiode, die die Periode darstellt, in der Sprache vorhanden ist. Zeile D zeigt 

Ha* 

Anderungen in der dynamischen Messung D{t). Zeile C zeigt das automatisch auf der Basis von 
Anderungen des dynamischen Messwerts D(t) automatisch ermittelte Sprachperioden-Erfas- 
sungsergebnis. Der dynamische Messwert D(t) wurde unter den gleichen Bedingungen wie in Fig. 
4 erhalten. Folglich wurde der dynamische Messwert alle 10 ms erhalten. Die Analyserahmen- 
lange war 400 ms, und der Analyserahmen wurde in Schritten von 200 ms verschoben. Die 
Gesamtsumme der dynamischen Messwerte D(t) in der Analyserahmenperiode wurde als 
Frequenz S F der Spektrumanderung berechnet. In diesem Beispiel wurde der Analyserahmen F. 



fur den der Wert dieser Gesamtsumme einen vorgegebenen Wert von 4,0 uberschritt, als 
Sprachperiode erfaSt. Wahrend Sprachperioden auf der Eingangssignal-Wellenform wegen des 
niedrigen Signal-Ratisch-Verhaltnisses nicht War zu sehen sind, ist zu sehen, daB mit dem 
erfindungsgema&en Verfahren alle Sprachperioden erfaBt wurden. Fig. 5 zeigt, da& die vorlie- 
gende Erfindung die Frequenz der Spektrumanderung ausnutzt und so die Erfassung von Sprache 
im Rauschen ermoglicht. 

Fig. 6 ist ein Diagramm zur Erlauterung einer anderen Ausgestaltung der vorliegenden Erfindung, 
die sowohl den dynamischen Messwert als auch die Spektralhulleninformation nutzt, um die 
Sprachperiode zu erfassen. Wie bei der oben erwahnten Ausgestaltung der Fall ist, wird das uber 
den SignaleingangsanschluR 11 eingegebene Signal vom A/D-Wandlerteil 13 in ein digitales 
Signal umgesetzt. Das Extraktionsteii 13 berechnet fur das gewandelte digitale Signal das 
akustische Merkmal wie etwa das LPC- oder FFT-Cepstrum. Das Rechenteil 14 fur den dynami- 
schen Messwert berechnet den dynamischen Messwert D(t) auf der Grundlage des akustischen 
Merkmals. Ein Vektorquantisierer 1 7 nimmt Bezug auf einen Vektorquantisierungs-Codebuchspei- 
cher 18, liest dann daraus vorberechnete representative Vektoren von Sprachmerkmalen aus und 
berechnet Vektorquantisierungsverzerrungen zwischen den reprasentativen Vektoren und 
Merkmaivektoren des Eingangssignais, um so die minimale Quantisierungsverzerrung zu erfassen. 
Wenn das Eingangssignal im Analysefenster ein Sprachsignal ist, kann der zu diesem Zeitpunkt 
erhaltene akustische Merkmalsvektor ein mit einem relativ kleinen AusmaB an Verzerrung 
quantisierter Vektor sein, indem auf das Codebuch des Vektorquantisierungs-Codebuchspeichers 
18 zuruckgegriffen wird. Wenn jedoch das Eingangssignal im Analysefenster kein Sprachsignal 
ist, erzeugt die Vektorquantisierung ein gro&es AusmaB an Verzerrung. So ist es durch Vergiei- 
chen der Vektorquantisierungsverzerrung mit einem vorgegebenen Pegel von Verzerrung moglich, 
zu entscheiden, ob das Eingangssignal in dem Sprachanalysefenster ein Sprachsignal oder nicht 
ist. 

Das Sprachperioden-Erfassungsteil 15 entscheidet, daS ein Signal uber die 400 ms-Analyse- 
rahmenperiode ein Sprachsignal 1st, wenn die Frequenz S F der Anderung des dynamischen 
Messwerts in den durch den oberen und unteren Grenzwert definierten Bereich fallen und die 
Quantisierungsverzerrung zwischen dem Merkmalvektor und dem Eingangssignal und dem 
entsprechehden reprasentativen Sprachmerkmalvektor kleiner als ein vorgegebener Wert ist. 
Diese Ausgestaltung verwendet zwar die Vektorquantisierungsverzerrung, um das Merkmal der 
spektralen Hulle zu untersuchen, es ist jedoch auch moglich, eine zeitiiche Folge von vektorquan- 
tisierten Codes zu verwenden, um zu bestimmen, ob eine fur Sprache charakteristische Sequenz 
darunter ist. AuBerdem kann auch manchma! ein Verfahren zum Erhalten eines Sprach-Entschei- 
dungsraumes in einem spektralen Merkmalraum verwendet werden. 

Es folgt eine Beschreibung eines Beispiels eines Experimentes, in dem Sprache durch eine 
Kombination des dynamischen MaSes und des Sprachmerkmalvektors erfaBt wird, die die oben 
erwahnte Vektorquantisierungsverzerrung minimiert. Dies ist ein Beispiel fur ein Experiment zum 
Erfassen von Sprache aus einem Eingangssignal, das aus Sprache und dem Singen eines Vogels 
im Wechsel miteinander zusammengesetzt ist. Im Experiment wurde das Vektorquantisie- 
rungscodebuch aus einer gro&en Menge von Sprachdaten erzeugt. Als Sprachdaten wurden die 



Aussprachen von 50 Worten und 25 Satzen durch 20 Sprecher aus einer ATR-Sprachdatenbank 
ausgewahlt. Die Zahl von Quantisierungspunkten ist 512. Der Merkmalvektor ist ein 16-dimen- 
sionales LPC-Cepstrum, die Analysefensterbreite ist 30 ms, und die Fensterverschiebungsbreite 
ist 10 ms. Die Summe von Quantisierungsverzerrungen von alle 10 ms geiieferten Merkmalvekto- 
ren wurde berechnet unter Verwendung des in Schritten von 200 ms verschobenen, 400 ms 
langen Analysefensters, Entsprechend wurde die Summe der dynamischen Messwerte ebenfalls 
unter Verwendung des in Schritten von 200 ms verschobenen, 400 ms langen Analysefensters 
, berechnet. Fur den dynamischen Messwert wie auch fur die Quantisierungsverzerrung ist der 
Bereich ihrer akzeptablen Werte in der Sprachperiode basierend auf dem Lernen von Sprache 
voreingestellt, und die Sprachperiode wird erfaBt, wenn eingegebene Sprache in den Bereich fallt. 

Das zur Bewertung verwendete Eingangssignal waren abwechselnde Verkettungen von 8 Satzen, 
jeweils aufgebaut aus ca. 5 Sekunden langer Sprache, und 8 Arten von Vogelgesang von jeweils 
5 Sekunden Lange, ausgewahlt aus einer Datenbank fur kontinuierliche Sprache der Japanischen 
Akustischen Gesellschaft. Die folgenden MaBe werden gesetzt, um die Leistung dieser Ausgestal- 
tung zu bewerten. 

Rahmenerfassungsrate = (Anzahl von korrekt erfaBten Sprachrahmen)/(Anzahl von 

Sprachrahmen in den Bewertungsdaten) 
Richtig-Rate - (Anzahl von korrekt erfaBten Sprachrahmen)/(Anzahl von vom System 

als Sprache ausgegebenen Rahmen) 

Die Richtig-Rate stellt das AusmaS dar, in dem das vom System als Sprachrahmen angegebene 
Ergebnis korrekt ist. Die Erfassungsrate stelrt das AusmaB dar, in dem das System Sprachrahmen 
im Eingangssignal erfassen konnte. In Fig. 7 sind unter Verwendung der obigen Messwerte die 
Ergebnisse der Spracherfassung mit Bezug auf die Bewertungsdaten gezeigt. Die Anderungsge- 
schwindigkeit des Spektrums des Vogelgesanges hat eine starke Ahnlichkeit mit der Anderungs- 
geschwindigkeit des Spektrums der Sprache; deshalb wird, wenn nur der dynamische Messwert 
verwendet wird, Vogelgesang so oft irrtumlich als Sprache erfaBt, daB die Richtig-Rate niedrig 
ist. Durch die kombinierte Verwendung des dynamischen Messwerts und der Vektorquantisie- 
rungsverzerrung kann die spektrale HuIIe des Vogelgesanges von der spektralen Hulle von 
Sprache unterschieden werden, und die Richtig-Rate nimmt entsprechend zu. 

Im Falle eines langen Vokals wie etwa eines Diphthongs kann das Spektrum manchmal in der 
Vokalperiode keine Veranderungen erfahren. Wenn Sprache einen soichen Vokal enthalt. besteht 
eine Moglichkeit eines Erfassungsfehlers, die nur mit dem erfindungsgema&en Verfahren auftritt, 
bei dem die Spektrumsanderung genutzt wird. Indem dieses erfindungsgema&e Verfahren mit der 
bislang verwendeten Erfassung der Tonhohenfrequenz, des Amplitudenwertes oder des Autokor- 
relationskoeffizienten des Eingangssignafs kombiniert wird, ist es mdglich, die Mogfichkeit zu 
verringern, daB dieser Erfassungsfehler auftritt. Die Tonhdhenfrequenz ist die Zahl von Schwin- 
gungen der menschlichen Stimmbander und reicht von 50 bis 500 Hz und tritt im stationaren Teil 
des Vokals deutlich auf. Das hei&t, die Tonhohenfrequenzkomponente hat ublicherweise eine 
starke Amplitude (Leistung), und das Vorhandensein der Tonhohenfrequenzkomponente bedeutet, 
daB der Wert des Autokorrelationskoeffizienten in dieser Periode groB ist. Durch Erfassen der 
Anfangs- und Endpunkte und der Periodizitat der Sprachperiode uber die Erfassung der Frequenz 



der Spektrumanderung nach d'tesem erfindungsgemafcen Verfahren und durch Erfassen des 
Vokalteils mit dcr Tonhohenfrequenz und/oder der Amplitude und/oder dem Autokorrelations- 
koeffizienten ist es moglich, die Moglichkeit von Erfassungsfehlern zu reduzieren, die im Falle von 
einen fangen Vokal enthaltender Sprache auftreten. 

Fig. 8 zeigt eine andere Ausgestaltung der voriiegenden Erfindung, die die Ausgestaltung der Fig. 
2 mit dem Vokaterfassungsschema kombiniert. Die Schritte 12 bis 16 in Fig, 8 werden nicht 
beschrieben, da sie jenen in Fig. 2 entsprechen. Ein Vokalerfassungsteil 21 erfaBt z.B. die 
Tonhohenfrequenz. Der Vokalerfassungsteil 21 erfa&t die Tonhohenfrequenz im Eingangssignal 
und liefert sie an das Sprachperiodenerfassungsteil 15. Das Sprachperiodeherfassungsteil 15 
bestimmt in der gleichen Weise wie oben, ob die Frequenz S F der Anderung des dynamischen 
Messwerts D(t) im vorgegebenen Schwellwertbereich ist, und entscheidet, ob die Tonhohenfre- 
quenz in dem fur menschliche Sprache typischen Bereich von 50 bis 500 Hz liegt. Ein Eingangs- 
signalrahmen, der diese zwei Bedingungen erfullt, wird ate ein Sprachrahmen erfa&t. In Fig. 8 ist 
gezeigt, daS das Vokalerfassungsteil 21 getrennt von den Hauptverarbeitungsschritten 12 bis 16 
vorgesehen ist, da aber in der Praxis die Tonhohenfrequenz, die spektrale Leistung Oder der 
Autokorreiationswert durch Berechnung in Schritt 13 im Rahmen der Cepstrumberechnung 
erhalten werden konnen, muR der Vokalerfassungsteil 21 nicht immer getrennt vorgesehen sein. 
Wahrend in Fig. 8 gezeigt ist, dad die Erfassung der Tonhohenfrequenz fur die Erfassung der 
Sprachvokaiperiode genutzt ist, ist es auch moglich, die Tonhohenfrequenz und/oder die Leistung 
und/oder den Autokorreiationswert zu berechnen und sie fur die Entscheidung uber das Sprach- 
signal zu nutzen. 

Fur die Erfassung der Sprachperiode kann die in Fig. 8 gezeigte Vokalerfassung durch die 
Erfassung eines Konsonanten ersetzt werden. Fig. 9 zeigt eine Kombination der Erfassung der 
Anzahl von Nulldurchgangen und der Erfassung der Frequenz der Spektrumsanderung. Stimmlose 
Reiblaute haben meist eine Verteilung von 400 bis 1 .400 Nulldurchgangen pro Sekunde. Folglich 
ist es moglich, ein Verfahren zu verwenden, das. den Anfangspunkt eines Konsonanten erfa&t, 
indem ein geeigneter, von einem Nulidurchgangsanzahl-Erfassungsteil 22 ausgewahlter Schwell- 
wert der Nulldurchgangsanzahl verwendet wird, wie in Fig. 9 gezeigt. 

Das erfindungsgema&e, oben beschriebene Sprachperioden-Erfassungsverfahren kann angewen- 
det werden auf einen Sprachschalter, der ein Gerat sprachgesteuert ein- oder ausschaltet, oder 
auf die Erfassung von Sprachperioden fur die Spracherkennung. AuSerdem ist das erfindungsge- 
ma&e Verfahren anwendbar auf das Auffinden von Sprache in Videoinformation oder akustischen 
CD-lnformationsdaten. 

Da erfindungsgemaR wie oben beschrieben die Sprachperiode auf der Grundlage der Frequenz der 
der fur menschliche Sprache charakteristischen Spektrumsanderung erfa&t wird, kann die 
Sprachperiode sogar aus Sprache stabil erfa&t werden, der Rauschen mit hoher Leistung 
ubeiiagert ist. Auch kann ein Gerausch mit einem der Sprache ahnlichen Leistungsmuster als 
Nicht-Sprache erkannt werden, wenn die Geschwindigkeit seiner Spektrumsanderung sich von 
der Phonemschattgeschwindigkeit der Sprache unterscheidet. Deshalb ist die vorliegende 
Erfindung anwendbar auf die Erfassung der Sprachperiode, die bei der Vorverarbeitung wiederer- 



12 



kannt werden mufc, wenn eine Spracherkennungseinheit in stark verrauschter Umgebung 
verwendet wird, Oder z.B. auf die Technik zum Wiederfinden einer Konversationsszene aus 
akustischen Daten eines Fernseh program ms, Spielfilms oder ahnlichen Medien, die Musik Oder 
diverse Gerausche enthalten sowie auf das Editieren eines Videos und Zusammenfassen von 
dessen Inhalt. AuGerdem enmoglicht die vorltegende Erfindung die Erfassung der Sprachperiode 
mit hoherer Genauigkeit durch Kombinieren der Frequenz der Spektrumsanderung mit dem 
Leistungswert, der Nulldurchgangsanzahl, dem Autokorrelationskoeffizienten oder der Grundfre- 
quenz, die ein anderes Merkmal von Sprache 1st. 

Es liegt auf der Hand, daft diverse Abwandlungen und Anderungen durchgef uhrt werden konnen, 
ohne den Rahmen der neuartigen Konzepte der voriiegenden Erfindung, wie in den nachfolgenden 
Anspruchen definiert, zu verlassen. 
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PATENTANSPRUCHE 



1 . Signalverarbeitungsverfahren zum Erfassen einer Sprachperiode in einem 
Eingangssignal, mit den Schritten: 

(a) Erhalten eines spektralen Merkmalpara meters durch Analysieren des Spektrums des 
Eingangssignals fur jedes vorgegebene Analysefenster; 

(b) Berechnen des AusmaSes der Anderung des spektralen Merkmalparameters des 
Eingangssignals pro Zeiteinheit; 

{c) Berechnen der Anderungsf requenz des Ausma&es der Anderung des spektralen 
Merkmalparameters uber eine vorgegebene Analyserahmenperiode, die langer als die Zeiteinheit 
ist; und 

. (d) Oberprufen, ob die Frequenz der Anderung in einen vorgegebenen Frequenzbereich 
fallt, und, wenn ja, Entscheiden, dad das Eingangssignal des Analyserahmens ein Sprachsignal 
ist. 

V 

2. Verfahren nach Anspruch 1, bei dem der Schritt des Berechnens des Ausma&es der 
Anderung des spektralen Merkmalparameters einen Schritt des Erhaltens einer Zeitfolge von 
Merkmalvektoren, die die Spektren des Eingangssignals an jeweiligen Zeitpunkten darsteilen, und 
einen Schritt des Berechnens von dynamischen Merkmaten durch Verwendung der Merkmal- 
vektoren an einer Mehrzahl von Zeitpunkten und des Berechnens der Anderung im Spektrum des 
Eingangssignals aus der Norm der dynamischen Merkmale umfaSt. 

3. Verfahren nach Anspruch 2, bei dem das dynamische Merkmal Polynom-Expansions- 
koeffizienten der Merkmalvektoren an einer Mehrzahl von Zeitpunkten sind. 

4. Verfahren nach Anspruch 1, 2 oder 3, bei dem der Schritt des Berechnens der 
Frequenz ein Schritt des Zahiens der Anzahl der einen vorgegebenen Schwellwert Oberschreiten- 

■ 

den Peaks der Spektrumsanderung in dem Analyserahmen und des Lieferns des Zahlwertes als 
die Frequenz ist. 

5. Verfahren naich Anspruch 1, 2 oder 3, bei dem der Schritt des Berechnens der 
Frequenz einen Schritt des Berechnens der Gesamtsumme der Anderungen im Spektrum des 
Eingangssignals in der vorgegebenen Analyserahmenperiode, die langer als die Zeiteinheit ist r 
umfafct, und der Schritt des Entscheidens entscheidet, dad das Eingangssignal der Analyserah- 
menperiode ein Sprachsignal ist, wenn die Gesamtsumme in einen vorgegebenen Wertebereich 
fallt. 
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6. Verfahren nach Anspruch 4 oder 5, soweit nicht auf Anspaich 3 bezogen, bei dem 
der Schritt des Berechnens der Spektrumsanderung einen Schritt des Berechnens eines Gradien- 
tenvektors, als dessen Elemente lineare Differentialkoeffizienten von jeweiligen Elementen eiries 
den spektralen Merkmalparameter darstellenden Vektors verwendet werden, und einen Schritt 
des Berechnens von Quadratsummen der jeweiligen Elemente des Gradientenvektors als dynami- 
sche Messwerte der Spektrumsanderung umfa&t. 

7. Verfahren nach Anspruch 6, bei dem der spektrale Merkmalparameter ein LPC- 
Cepstrum ist und die Spektrumanderung ein Delta-Cepstrum ist. 

8. Verfahren nach Anspruch 1, ferner mit einem Schritt des vektorieiien Quantisierens 
des Eingangssignals fur jedes der Analysef enster durch Bezugnahme auf ein Vektorcodebuch, das 
aufgebaut ist aus aus Sprachdaten erhaltenen reprasentativen Vektoren von spektralen 
Merkmalparametem von Sprache, und des Berechnens von Quantisierungsverzerrung, wobei in 
dem Schritt des Entscheidens entschieden wird, daS das Eingangssignal ein Sprachsignal ist, 
wenn die Quantisierungsverzerrung kletner als ein vorgegebener Wert ist und die Frequenz der 
Anderung innerhalb des vorgegebenen Frequenzbereiches liegt. 

■ * 

9. Verfahren nach Anspruch 1, femer mit einem Schritt des Erfassens, ob das 
Eingangssignal in einem jeweiligen Analysef enster ein Vokal ist, und wobei in dem 
Entscheidungsschritt (d) entschieden wird, ob das Eingangssignal ein Sprachsignal ist, indem ein 
Vokal erfaBt wird und erfa&t wird, ob die Frequenz der Anderung' in dem vorgegebenen 
Frequenzbereich liegt. 

10. Verfahren nach Anspruch 9, bei dem in dem Vokalerfassungsschritt eine 
Tonhohenfrequenz in dem Eingangssignal fur jedes Analysefenster erfafct wird und entschieden 
wird, daS das Eingangssignal ein Vokal ist, wenn die erfaSte Tonhohenfrequenz in einem 
vorgegebenen Frequenzbereich liegt. 

1 1 . Verfahren nach Anspruch 9, bei dem in dem Vokalerfassungsschritt die Leistung 
des Eingangssignals fur jedes Analysefenster erfa&t wird und entschieden wird, daS das 
Eingangssignal ein Vokal ist, wenn die erfaSte Leistung groSer als ein vorgegebener Wert ist. 

1 2. Verfahren nach Anspruch 9, bei dem in dem Vokalerfassungsschritt der 
Autokorrelationswert des Eingangssignals erfaBt wird und entschieden wird, dafi das 
Eingangssignal ein Vokal ist, wenn der erfa&te Autokorrelationswert gro&er als ein vorgegebener 
Wert ist. 

1 3. Verfahren nach Anspruch 1 , ferner mit einem Schritt (e) des Zahlens der Anzahl von 
Nulldurchgangen des Eingangssignals in jedem Analysefenster und des Entscheidens, da& das 
Eingangssignal in dem Analysefenster ein Konsonant ist, wenn der Zahlwert innerhalb eines 
vorgegebenen Bereiches liegt, und wobei in dem Entscheidungsschritt <d) entschieden wird, ob 
das Eingangssignal Sprache ist, indem durch den Entscheidungsschritt (e) entschieden wird, ob 
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das Eingangssignal ein Konsonant ist und entschieden wird, ob die Anderungsfrequenz in dem 
vorgegebenen Frequenzbereich liegt. 

1 4. Verfahren nach Anspruch 1 , 2 oder 3, bei dem der spektrate Mericmafparameter ein 
3 LPC-Cepstrum ist. 

15. Verfahren nach Anspruch 1,2 oder 3, bei dem der spektrale Merkmalparameter ein 
FFT-Cepstrum ist. 
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